package com.thinvent.recommend.manager.parser;

/**
 * 通用文档解析器接口
 */
public interface DocumentParser {
    /**
     * 是否支持此扩展名
     * @param extension 小写不带点的后缀，例如 "docx"
     */
    boolean support(String extension);

    /**
     * 将字节数组解析为纯文本
     * @param data 文件字节内容
     * @return 提取出的文本
     */
    String parse(byte[] data) throws Exception;
}
